必看!一文了解信息抽取(Information Extraction)【事件抽取】
喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!
引言
信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。信息抽取主要包括三个子任务:关系抽取、命名实体识别、事件抽取。
在上一篇文章 必看!一文了解信息抽取(IE)【命名实体识别NER】中主要介绍了命名实体识别研究的难点、命名实体识别的研究进展、命名实体识别研究热点、命名实体识别常用的数据集及评价指标四部分内容,感兴趣的小伙伴可以读一下。那么本文主要为大家介绍事件抽取的相关内容。
本文涉及参考文献,直接回复:EE001 进行打包下载。
最后,资料整理不易,帮作者点个在看吧,谢谢~~
信息抽取(IE)相关文章
正文开始
1First Blood1、事件抽取介绍
事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取在网络舆情监控、突发事件告警、情报收集领域 有着重要应用。网络舆情变化通常是由某些热点社会事件引发的,事件抽取技术可以在第一时间发现这些热点事件,从而为预测网络舆情变化提供帮助。
2、事件抽取分类事件抽取任务总体可以分为两个大类:元事件抽取和主题事件抽取。元事件表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。当前主要是面对元事件抽取,关于主题事件抽取的研究较少。
2.1、元事件抽取根据实现方式,元事件抽取可以分为两类:基于模式匹配的方式和基于机器学习的方式、基于神经网络的抽取方法。
2.1.1、基于模式匹配的元事件抽取基于模式匹配的元事件抽取是指在元事件模板的指导下 对元事件进行检测和信息提取,元事件模板主要用于指明构 成目标信息的上下文约束环境。基于模式匹配的元事件抽取包含两个基本步骤:模式获取和元事件抽取。 这种方法的关键在于元事件模板的构建。最初,模板构建主要依靠手工进行,这种方法费时费力,需要较强的专业知识。研究人员尝试用机器学习的方法自动构建元事件模板, 取得了良好的效果。总的来说,基于模式匹配的元事件抽取在特定领域往往能够取得较好的检测效果,但其跨领域和可移植性较差,因此近年来研究人员更多地利用机器学习的方法进行元事件抽取。
2.1.2、基于机器学习的元事件抽取基于机器学习的元事件抽取采用机器学习的方法识别事件,就是借鉴文本分类的思想,将事件类别及事件元素的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。但事件分类与文本分类又有所区别,主要表现在以下方面: 分类的文本短,大部分都是一个完整的句子; 因为是事件表述语句,所以语句中包含的信息量大。
对元事件的识别主要包括事件类别的识别与分类以及事件元素识别两大核心任务。* Chieu等[1]首次在事件抽取中引入最大熵模型用于事件元素的识别,实现了对讲座通告和人事管理事件的抽取。
H. Llorens等[2]通过 CRF 模型进行语义角色标注,并应用于TimeML的事件抽取,提升了系统的性能。为了提高识别效果,有时将多种机器学习算法混合使用或将机器学习与模型匹配相结合。
D. Ahn 等[3]结合MegaM 和 TiMBL 两种机器学习方法分别实现了事件类别识别和事件元素识别两大任务,在 ACE 语料的实验结果表明该方法优于采用单一算法。
上述研究大多是基于触发词来进行事件的探测,例如 Ahn 的研究将每一个词作为训练实例,然后采用 MegaM 二元分类器判断当前词是否为触发词。这种方式简单直观,但触发词只占所有词的一小部分,这样就在训练中引入大量反例,导致正反例不平衡,并且对每个词判断会导致计算量的额外增加。为了解决上述问题:赵妍妍采用了一种基于触发词扩展和二元分类相结合的方法来识别事件类别。在训练中将触发词收录在词典中并通过同义词林进行扩展,较好地解决了训练实例正反例不平衡以及数据稀疏问题,在 ACE 的中文语料上取得较好的效果。而许红磊与 Naughton 则采用基于事件实例的方式进行事件的探测,这种方法将句子而非词语作为识别实例,克服了传统的基于触发词方法不可避免的正反例失衡和数据稀疏问题。许红磊采用二元分类器过滤非事件句,得到候选事件句,然后采用多元分类器对候选事件句进行分类。Naughton 则将事件的探测转化为句子聚类问题,通过聚类得到事件句。
综上可知,基于机器学习的方法虽然不依赖于语料的内容与格式,但需要大规模的标准语料,否则会出现较为严重的数据稀疏问题。但现阶段的语料规模难以满足应用需求,且人工标注语料耗时耗力,为了缓解获取已标注语料的困难,有关学者探究了半监督及无监督的学习研究。另外,特征选取也是决定机器学习结果好坏的重要因素。因此,怎样避免数据稀疏现象以及如何选择合适的特征,成为基于机器学习方法研究的重要课题。当前绝大多数研究都是基于短语或句子层级的信息,利用篇章级或跨篇章的信息来提高抽取性能将成为一个新的热点。
2.1.3、基于神经网络的抽取方法
基于神经网络的抽取方法作为一种有监督多元分类任务,事件抽取方法包括2个步骤: 特征选择和分类模型。本文根据使用特征的范围不同、模型学习方式不同和是否融合外部资源进行分类。
2.1.3.1、根据所使用特征的范围分类根据所使用特征的范围分类:事件抽取方法可以分为句子级的事件抽取方法和篇章级的事件抽取方法。总地来说,句子级的事件抽取方法只使用句子内部获取的特征。而篇章级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下,句子级特征是所有事件抽取方法通用的特征,而篇章级特征则属于面向实际任务挖掘的特效特征。
句子级的事件抽取方法
传统方法中,句子级别的特征可以分为基于词的特征和基于词对的特征。其中,基于词的传统离散特征包括: 1)词法特征:例如当前词及周边词的一元/ 二元语法、词性标签、词干、同义词等。2)句法特征:例如当前词的依存词和核心词、涉及的依存关系、是否是未被引用的代词、句法 分析树中路径等。3)实体信息:例如实体类型、距离最近的实体类型、是否是相同类型论元候选中距离触发词最近的等等。基于词对的特征有: 触发词-触发词之间的共现关系和触发词-论元的多种依赖关系等。
篇章级事件抽取方法
它额外考虑了跨句子或跨文档的特征辅助任务实现。例如,相同/类似事件对应的论元一致性,同一文档内的相同单词触发的事件类型一致性特征,相同类型的实体参与的事件一致性特征。
2.1.3.2、模型学习方式不同分类模型学习方式不同分类:可以分为基于流水线模型的事件抽取方法和基于联合模型的事件抽取方法。
基于流水线模型事件抽取方法
把元事件抽取分为触发词识别和论元识别等 任务,所有的任务依次被执行。其中,触发词识别是整个元事件抽取的基础,后续工作依赖于之前任务的成果。文献HNA提出将元事件抽取分为触发词检测、论元检测、事件对齐、事件关系检测4个部分,并提出利用流水线的方法进行事件抽取。分别选择每个任务的特征,使用K近邻和最大熵算法构建模型,比较两种算法在相同任务中的性能。特定的事件类型一般对应特定的论元,因此触发词信息对于论元识别很重要。另一方面,特定的论元通常也对应特定的事件,由于管道式方法中触发词检测总是在论元检测之前,在进行触发词检测时无法考虑论元信息,从而限制了触发词检测的精度,因此研究者们提出了联合学习方法。
基于联合模型事件抽取方法
大部分事件抽取方法都是流水线模型学习方式,先进行事件识别模型的学习,再转入论元角色分类模型的学习。而经仿真验证基于联合模型的学习方式的效果要优于流水线模型学习方式,故而也随即产生了基于联合模型的事件抽取工作。联合学习方法对触发词识别、论元识别等任务构建一个联合学习模型,使得触发词和论元信息可以相互促进彼此的提取效果。
2.1.3.3、是否融合外部资源分类ACE05 数据是现有的为数不多的有标记事件数据之一,是在新闻、博客、访谈等数据上进行人工标注得到的。ACE数据的标注质量不高以及规模较小的问题,也在很大程度上影响了事件抽取任务的发展。为此很多工作尝试借助外部资源辅助事件抽取任务的功能达成。根据是否使用外部资源,可以分为基于同源数据( 即 ACE 数据) 的事件抽取方法和融合外部资源的事件抽取方法。 由于 ACE05 数据集规模小,且存在较严重的事件类型稀疏问题,因而衍生了一些相关工作以解决上述问题。
Liu等[4] 尝试借助 FrameNet 数据集缓解 ACE05 数据集中的若干类别事件的稀疏问题,研究给出通过 Freebase 构建一个基于Wikipedia 的事件数据集。Paper
Chen等[5]人通过远距离监督方法构建了大规模事件抽取数据集,从而帮助事件抽取任务的实效提升。
Zeng等[6]人采取一种新颖的思路从 Wikipedia 和 Freebase 中构建大规模事件数据集。
2.2、主题事件抽取一个主题事件由多个动作或状态组成,其描述信息通 常分散在一个或多个文档中,而元事件抽取的方法局限在句子层级,显然无法满足对主题事件的抽取。主题事件抽取的关键是如何确定描述同一个主题事件的文档集合,以 及如何通过篇章内或跨篇章的理解技术将这些集合中分散的主题事件片段进行归并。在研究中通常采用事件框架或本体来表示主题事件的基本组成以及各成分间的联系。
2.2.1、基于事件框架的主题事件抽取基于事件框架的主题事件抽取方法通过定义结构化、 层次化的事件框架来指导主题事件的抽取,利用框架来概括事件信息,表达主题事件的不同侧面。框架是一种常用的知识表示方法,可用于描述相关概念的轮廓框架。M. Minsky 在 “A Framework for Representing Knowledge”一 文中提出了框架的概念,引起了学者的关注。当人们面临 一个新的情景时,会从头脑中已存在的大量典型情景中搜 索一个情景来认识新事物,这些典型的情景就是知识框 架。例如针对一个会议事件,人们在头脑里自然会想到, 会议发生的时间、地点、主办机构、参会者、政府的反映 以及会议带来的影响等不同的侧面。事件的侧面在语义上 可以进行分离,所以这里的框架结构其实是一种分类体 系,用于分隔一个事件涉及的不同侧面。用来描述事件不 同侧面的词语为事件的 “侧面词”,事件框架是由 “侧面 词”构成的一个分类体系。生成完整的事件框架体系是 框架方法的关键,如何提高框架构建的全面性以及自动化 程度是学者们研究的重点。
2.2.2、基于本体的主题事件抽取本体是知识工程和人工智能研究领域的一个重要课题,其目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇 ( 术语) 之间的相互关系。本体的这些特点很好地符合了主题事件抽取的要求。基于本体的主题事件抽取,一般根据本体所描述的概念、关 系、层次结构、实例等来抽取待抽取文本中所包含的侧面事件及相关实体信息,主要分为3 个步骤: 领域本体的构 建,这是后续工作的基础; 基于领域本体的文本内容的自动语义标注; 基于语义标注的事件抽取。综合国内外研究可见主题事件抽取的研究并不成熟, 篇章内及跨篇章语义理解技术的缺失,致使信息的有效归 并与融合成为瓶颈。
3、事件抽取评价方法当前关于事件抽取的评价方法主要有两种:基于召回率 (记为 R) 准确率 (记为 P) 的微平均 (记为F1) 值法,其中,其中P是英文单词precision的缩写,表示系统正确标注结果的总数与系统标注结果总数的比值。R为英文单词Recall的缩写,表示系统正确标注结果的总数与语料中标准标注结果的总数的比值。F1是P值和R值的一个综合度量。其公式如下:
基于丢失率 (记为 L) 误报率 (记为 M) 的错误识别代价 (记为 C) 法。Cmiss为一 次 丢 失 的 代 价, Cfa为一次误报的代价,Ltar为系统作出肯定判断的先验概率, 通常根据具体应用设定为常值。其公式如下:
上面两种种效果测评方法之间不存在简单的逆反关系,因此在分析不同评价方法下的两种不同算法的效果时应进行适当的换算。
微平均值法一般多用于单一事件抽取任务中,如: 突发事件、门户网站、金融资讯的事件抽取。对于话题追踪任务而言,相对于正确率,人们对系统作出的错误判断往往更为敏感,这些错误包括:本应为是的判断为否 (丢失) ,本应为否的判断为是 (误报) ,因此常采用错误识别代价作为效果评价方法。另外,事件抽取的各种算法在实际应用中,除考虑其识别结果的正确率外,还应该考虑算法的复杂程度及其可实现性。一些抽取效果好的算法往往是以牺牲时间为代价的。一些算法可能由于硬件要求太高,或训练时间太长而不具备可行性。
[1]CHIEU H L,NG H T. A maximum entropy approach to information extraction from semistructured and free text [C] / /Proceedings of the 18th National Conference on Artificial Intelligence. USA: American Association for Artificial Intelligence, 2002: 786791.
[2] LLORENS H,SAQUETE E,et al. TimeML events recognition and classification learning CRF models with semantic roles [C] / /Proceedings of the 23rd International Conference on Computational,2010.
[3]AHN D. The stages of event extraction [C] / /Proceedings of the Workshop on Annotations and Reasoning about Time and Event. [s. l. ]: Association for Computational Linguistics, 2006: 18.
[4]LIU Shulin,CHEN Yubo,HE Shizhu,et al. Leveraging frame Net to improve automatic event detection[C]/ /Proceedings of 54th ACL. Berlin, Germany: Association for Computational Linguistics,2016: 2134-2143.
[5]CHEN Yubo,LIU Shulin,ZHANG Xiang,et al. Automatically labeled data generation for large scale event extraction[C]/ / Proceedings of 55th ACL. Vancouver,Canada: Association for Computational Linguistics,2017: 409-419.
[6]ZENG Ying,FENG Yansong,MA Rong,et al. Scale up event extraction learning via automatic training data generation[J] . arXiv preprint arXiv: 1712.03665, 2018
参考文献批量下载:回复 EE001
资料整理不易,帮忙点个【赞】、【在看】吧